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® Datenverarbeitungselnrichtung 

In Verbtndung mit elnar Datenverarbaitunaseinrinhtufui 
wobei e!n (fm folgenden Oetenflu&prozessor - DFP - genann- 
ter) integriarter Scnaltungsfcreis (Chip) mit einar Vfeteahl 
msbeaondere orthogonal zuefnender angeordneter homogan 
strukturierter Zelien mft je elner Mehrahl {ewafls logisoh 
gleicher und strukturell fdentfsch angeordneter Bausteine 
vorgosehen let, des&an Zelien zeOen- und spaftenweUe, 
gegebenenfalfe gruppenweise zusammangefafitp mit En- 
/Aucgangsanschlussen dea integrierten Sohaitkrefees ver- 
bunden slnd, ist erfindungsgemafi den Zelien alne LadelogDc 
zugeordnet, uber die ere je fur clch und gegabenenfaHa 
gruppenweise zusammangefaBt so programmlerbar (konfl- 
gurierbar) slnd, da& ballebige logtsche Funlcdonan und/oder 
Vemefcungen untereinander varmzfarbar sind. und iwar 
derart, daG eine Manipulation der DfP-Konflguration wfih- 
rend das Betrlabas (odar zur Laufzeit), d. h. die Modtfikation 
funktionellerTeile (MACROS) des DFPs erfolgen kann, ohne 
daB endere funktionelle Telle angehalten we/den museen 
oder in fhrer Funktion beeintrachtigt warden. 
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Beschreibung Dies© Aufgabc wird dadurch gelttst, dafl ein integrier- 

ter Schaltkreis (Chip) mit einer Vlelzahl insbesondere 

Die vorliegende Erfindung bezieht sich auf eine Da- orthogonal zueinander angeordneter Zellen mit je einer 
tenverarbeitungseinrichtung, dL b. eine Hardwareeinheit Mehrzahl jeweils logisch gleicher und struktiirell iden- 
zur iogischen Manipulation (Vcrknflpfung) von in bini- 5 tisch angeordneter Zellen vbrgesehen ist derenAnord- 
rer Form vorliegenden Daten (Iiiformationen). nung, sowie die interne Busstruktur, zur Erlelchterung 

Derartige Datenverarbeiuuigseinrichtiingen sind der Programmierung ftuSerst homogen ist Denrioch ist 
mittlerweile lange bekannt und sie baben bereits breite es denkbar innerhalb eines DatenfluBprozessors Zellen 
Anwendung und Anerkennung gefunden. Die prinzipiel- mit verschledenen ZeDogiken und Zellstrukturen unter- 
le Aufbau- und Arbeitsstruktur der bekannten Daten- 10 aibringen, urn so die Leistungsfdhigkeit zu erhdhen, in* 
verarbeitungseinrichtungcn ist in etwa so zu definieren, dem 211m Beispiel fOr Speicheransteuerimgen andera 
daB eine arithmetiscb-logische Verknttpfungsemheh ZedlenalsnlrarithmetischeOp^ 
vorgesehen ist, in der die zu verknttpfenden Daten einer besondere kann fur neuronale Netze eine gewtese Spe- 
prograramtechnischcn Anweisung (Software) zufolge ziali&ierung von VorteUsein. Den ZeUen ist eine Udelo- 
verarbeitet werden. Die Daten werden dabei fiber ein 15 gik zugeordnet, fiber die die Zellen je fur sich und gege* 
Steuerwerk in raehr oder weniger komplexen Adressic- benenfalk gruppenweise in sogenannte MACROs zu- 
rungsvorg&ngen entsprechend abgerufen und zunachst sammengefaBt so programmierbar sind daB einerseits 
in Arbeitsregistern bereitgestellt; nacb der Iogischen beiiebige logische Funktioneh, anderer&eits aber aucb 
VerloiQpfung werden dann die neuen Daten in einer die Verknttpfung der Zellen untereinander in weiten 
vorgegebenen Speicherstelle wieder abgelegt Die 20 Bereichen verihzierbar sind. Dies wird errelcht indem 
arithmetisch-logische VerknCpfungseinhclt bestebt da- jeder einzelnen Zelle ein gewisser Speicherplatz zur 
bei aus Iogischen Verknupfungsbausteinen (Gatter, Verfugung steht, in dem die Konfigurationsdaten abge- 
Glieder), die jeweils so miteinander gekoppelt sind, daB legt sind Anhand dieser Daten werden Multiplexer oder 
* die zu manipulierenden Daten der zugrunde tiegenden Transistoren in der Zelle beschahet urn die jeweOige 
Software entsprechend den vier Grundrechenarten ge- 2$ Zellfuriktionzugewahrleisten(siehe Fig- 12). 
miifl logisch verarbeitet werden. Mit anderen als im Patentanspruch 1 gebrauchten 

Es ist leicht nachzuvollziehen, daB auf der Basis der Worten besteht der Kern der vorliegenden Erfindung 
bekannten Strukturen relattv viel Rechenzeit dafur er- darin, einen DatenfluBprozessor vorzuschlagen. der zel- 
f orderlich ist, die zu manipulierenden Daten auszulesen, lular aufgebaut ist und dessen ZeUen uber eine externe 
und die Arbeitsregister zu fiberf uhren, den spezifiscben 30 Ladelogik im arithmetisch-logischen Sinne quasi belie- 
Logikbausteinen in der arithmetisch-logischen Ver- big neu konfiguriert werden konnep. Dabei ist es von 
knflpfungseinheit zuzuieiten und schliefllich wieder ab- auBerster Notwendigkeit, daB die betreffenden ZeUen 
zuspeicheiu Es ist ferner einsichtig; daB die Hardware- einzeln und ohne Beeinflussung der Qbrigen Zeflen oder 
Struktur der arithmetisch-logischen Verknupfungsein- gareuierStiUegungdesgesanitenBausteinsumkonfigu- 
heit insoweit nicht als optimal betrachtet werden kann, 35 riert werden kdnnen. Der DatenfluBprozessor gemlB 
als schliefllich die hardwarem&Big vorhandenen inte- der vorliegenden Erfindung kann so w&hrend eines er- 
grierten Iogischen Bausteine stets nur in ein und dersel- sten Arbeitszyklus als Addierer und wahrehd eines spa- 
ben Art und Weise im Gesamtsystem aktiv benutzt wer- teren Arbeitszykhis als Muhiplizierer •programmierf' 
dea Ebenso wird durch strikte Hardwarevorgabe ein werden. wobei die Anzahl der fur die Addition bezie- 
Aneinanderreihen von Funktionen in sogenannten Pipe- 40 hungsweise die MulUplikation erforderlichen Zellen 
lines sehr erschwert oder eingeschrtakt, was zwangs- durchaus unterschiedEdi seia kttnnen. Dabei bleibt die 
laufig ein haufiges Registerumladen zwischen Arbcits- Plazierung der bereits geladenen MACROs erhahen; 
registern und Rechenwerk bedeutet. Derartige Bauatei 1 der Ladelogik be2iehungsweise dem Compiler obliegt 
ne sind des weiteren nur schlecht kaskadierbar und er- es, das neu zu ladende MACRO innerhalb der freien 
fordem dann sehr viel ProgrammierarbeiL 45 Zellen zu partitionieren (d. h. das zu ladende MACRO 

Ein zus£tzlicher Vorteil der vorliegenden Erfindung so zu zerlegen, daB es sich optimal einfugen lSJ3t), Die 
liegt darin, daB eine flber einen weiten Raum skalierbare Ablaufsteuerung des Programms wird dabei von der 
Parailelit^t zur Verfugung steht Hierbei wird eine Basis Ladelogik ubernommen. indem sie gemfiB dem momen- 
zum schnellen und flexiblen Aufbau von neuronalen tan ausgefubrten Programmabschnitt die entsprechen- 
Strukturen geschaffen, wie die bis dato lediglicb mit so den MACROs in den Baustein }&&%, wobei der Ladevor- 
erheblichem Aufwand simuliert werden kdnnen. gang von der spfiter beschriebeneh Synchronisationslch 

Die der vorliegenden Erfindung zugrunde liegende gik mitgesteuert wind, indem sie den Zeitpunkt des Um- 
Aufgabe besteht darin* eine im folgenden DatenfluBpro- ladens f estlegt Daher entspricht der DFP nicht der be- 
zessor (DFP) genannte Datenverarbeitungseinrichtung kannten von-Neumann-Architektur, da die Daten- und 
aozugeben, bei der eine hdhere beziehungsweise besse- 55 Programmspeicher getrennt sind. Dies bedeutet jedoch 
re Flexibility der Gesamtstmktur und des Datenflusses gleichzeidg cine hOhere Sicherheit, da fehlerhafte Pro- 
sowie der Pipelining- und KaskadiermOglichkeiten zu gramme keinen CODE, sondern lediglicb DATEN zer- 
einer Erhdhung der Rechnerbeziehungswcise VerknOp- stdren kdnnen. 

fungsleistung f tthrt. Um den DatenfluBprozessor eine arbeitsfahige Struk- 

AuBer dem Einsatz als reiner DatenfluBprozessor, w tur zu geben, werden einige ZeUen, und zwar unter an- 
soil der DFP folgendc weitere Aufgaben erfflllen toon- derem die Hngabe-ZAusgabefunktibnen (I/O) und Spei- 
nen . chennanagementfunktionen vor dem Laden der Pro- 

gramme geladen und bleiben fur gewdhnlich wahrend 

— Einsatz als universeller Baustein zum Aufbau der gesamten Laufzeh konstant Dies ist erforderlich um 
von herkommlichen Rechnern, wobei der Aufbau 65 den DatenfluBprozessor an seine Hardwareumgebung 
einfacher und billiger werden soil anzupasseiL Die Qbrigen Zeflen werden zu sogenaAnten 

- Einsatz in neuronalen Netzea MACROs zusammengefaflt und kdnnen wahrend der, 

Laufzeit nahezu beliebig und ohne Beeinflussung der 
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a) Nur die lokolen Verbindungen zwischen den Zel- 
len werden herausgefuhrt, was im vorliegenden 
BeispieJ zwei lO-Pins pro KantenzeDe und vier 10- 
Pins pro Eckzelle bedeutet Allerdings hat der 
Compiler/Programmierer zu beachten, daB die glo- 
balen Verbindungen nicht herausgefuhrt werden/ 
wodurch die Kaskadierung nicht votlst&ndig homo- 
gen ist (Globale Verbindungen zwischen hiehreren 
Zellen, fur gewdhnlich zwischen einer komptetten 
Zellenreihe oder -spake - siehe Rg.6 — ; lokale 
Verbindungen existieren nur zwischen zwei Zellen). 
Fig. 16a zeigt den Aufbau inherhalb eines DFPs, 
Fig. 17a zeigt die daraus resuitierende Kaskadie- 
rung von mebreren DFPs (drei ge2eichnet> 

b) Die lokalen und globaJen Verbuidungen werden 
herausgefiihrt, was die Anzahl der bendtigten Trei- 
ber/IO-Pins und Leitungen drastisch erfadht, in un- 
serem Beispiel auf sechs IO-Pins pro K4ntenzelle 
und zwdif IO-Pins pro Eckzelle, Dadurch ist erne 
vollstftndige Homogenitat bei der Kaskadierung 
gegeben. 

Da die globalen Verbindungen insbesondere bei Ver- 
wendung der Kaskadienmgstechnik b) sehr lang wer- 
den kdnnen, kann der unangenehme Effekt auftreten, 
daB die Zahl der globalen Verbindungen liicht ausreicht, 
da bekanntlich jede Verbindung nur von einem Signal 
genutzt werden kann. Urn diesen Effekt zu minimieren, 
kann nach einer gewissen LBnge der globalen Verbin- 
Arbeit 0 und 1 fur "fertig" stehen. Die Logik besitzt drei 30 dungen ein Treiber eingeschleift werderu Der Treiber 
Ausgangssignale, die an die Ladelogik gefuhrt werden, hat zom einen eine Verstarkung des Signals zur Aufga- 
wobei der Zustand 000 als Ruhezustand gilt Liegt ein be, die bei langen Strcckcn und entsprechend hohen 
Signal an einem der sieben EingSnge an, so findet eine Lasten, unbedingt erforderlich ist; zum anderen kann 
Dezimal-Binlr-Umsetzung statt, so wird zum Beispiel der Treiber in Tristate gehen und damit das Signal uri- 
Sync6 als 110 dargestellt, was der Ladelogik anzeigt, daB 35 terbrechen. Dadurch kdnnen die Abschnitte links und 
das MACRO, welches Sync6 bedient, seine Aufgabe be- rechts, beziehungsweise oberhalb und unterhalb des 
endet hat Liegen gleichzeitig mehrere Synchronisa- Treibers von verschiedenen Signalen genutzt werden, 
tions-Signale am Eingang an, so gibt die Synchronisa- sofera der Treiber in Tristate ist, ansonsten wird ein 
tionsschaltung das Signal mit der hdchsten PrioritSt an Signal durchgeschleif t Wichtig ist hierbei, daB ale Trei- 
die Ladelogik weiter; liegen zum Beispiel SyncQ, Sync4 40 bcrder einzelnen globalen Leitungen ancb einzeln an- 



Nachbarzellen umkonfiguriert wcrdea Dazu sind die 
Zellen einzeln und direkt adressierbar. 

Urn die Umstrukturierung (das Umladen) der Zellen 
Oder MACROs mh der Ladelogik zu synchronisieren, 
kann — wo notwendig, da nur Umgeladen werden darf, 
wenn die MACROs mit ihrer alten T&tigkeit fertig sind 
— eine Synchronisationsschaltung als MACRO auf dem 
DatenfluBprozessor untergebracht werden, die die ent- 
sprechenden Signale an die Ladelogik absendet Hierzu 
kann evenuiell eine Modifikation der gewahnlichen 
MACROs von Ndten sein, da diese dann der Synchroni- 
sations-Schaltung Zustandsinformationen zur Verfu- 
gung stellen mussen* 

Diese Zustandsinformationen signalisieren der Syn- 
chronisationslogik fur gewdhntich, daB einzelne MA- 
CROS ihre Aufgabe ertougt haben, was aus program- 
miertechnischer Sicht zum Beispiel die Terminierung 
einer Prozedur oder das Erreichen der Terminierungs- 
bedingung einer Schleife bedeuten kann. D-h. das Pro- 
gramm wird an einer anderen SteDe fortgesetzt und die 20 
die Zustandsinfarmation absendenden MACROs kdn- 
nen umgeladen werden. Zudem kann es von Interesse 
sein, daB die MACROs in einer bestimmten Reihenfotge 
umgeladen werden. Hierzu kann eine Wertung der ein- 
zelnen Synchronisations-SignaJe durch einen PrioritSts- 25 
dekoder erfolgen. Eine derartige — einfache — Logik 
ist in Fig. 13 gezeichnet Die Logik besitzt sieben Ein- 
gangssignaie durch die die sieben MACROs ihre Zu- 
standsinformation abgebea In diesem Fall soil 0 fur "In 



und Sync6 an, so reicht die Syncronistaions-Schaltung 
zunachst Syncfi an die Ladelogik weiter. Nachdem die 
entsprechenden MACROs umgeladen sind und somit 
Sync6 nicht mehr anliegt wird Syno4 weitergeleitet usw. 
Zur Verdeutiichung dieses Prinzips kann der Standard- 
TTL-Baustein 74148 in Betracht gezogen werden. 

Ober die Ladelogik kann der Datenflufiprozessor je- 
wciis optimal und gegebenenfalls dynamisch auf eine zu 
idsende Aufgabe eingestelh werden, Damit ist zum Bei- 



gesteuert werden kdnnen, d. h. ein globales Signal kann 
unterbrochen sein, das Nachbarsignal ist jedoch durch- 
geschleift Somit kdnnen auf einer globalen Verbindung 
durchaus abscfinittweise verschiedene Signale ahhegen, 
45 wflhrend die globale Nachbarverbtndung tats&chlich 
global von ein und demselben Signal verwendet wird 
(vergleicheFigi 22). 

Zur besseren Kommunikation zwischen den Daten- 
fluBprozessoren und der Ladelogik kdnnen spgenannte 



spiel der groBe Vorteil verbunden, daB neue Nonnen 50 Shared-Memories eingesetzt werden, So kdnnen zum 



oder dergieichen einzig und allein durch eine Umpro- 
grammierung des DatenfluBprozessors umgesetzt wer- 
den kdnnen und nicht — wie bisher — einen Austausch 
mit entsprechendem Anfall von Elektronikschrott be- 
dingen. 

Die DatenfluBprozessoren sind untereinander kaska- 
dicrbar, was zu einer beinahe beliebigen Erhdhung des 
Parallelisierungsgrades, der Rechenleistung, so wie der 
MetzgroBe in neuronalen Netzen ffihrt Besonders wich- 
tig ist hier eine klare homogene Verbindung der Zellen 
mit den Ein-/Ausgangs-Pins (rO-Pin) der DatenfluBpro- 
zessoren, urn moglichst keine Einschr&nkungen auf die 
Programme zu haben. 
In Fig. 14 ist zum Beispiel die Kaskadierung von vier 
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Beispiel Programme von einer Festplatte, die im IO-Be- 
reich eines DatenfluBprozessors hegt zur Ladelogik 
durchgeretcht werden, mdem die DatenfluBprozessoren 
die Daten von der Platte in den Shared-Memory schrei- 
ben und die Ladelogik sie dort abholt Dies ist besonders 
wichtig, da hier, wie bereits erwahnt, keine von-Neu- 
mann- sondern eine Harvardarchitektur vorliegt Eben- 
so sind die Shared-Memories von Vorteil, wenn Kon- 
stanten, die im Programm — das im Speicherbereich der 
Ladelogik liegt — definiert sind, mit Daten — die im 
Speicherbetrieb der DatenfluBprozessoren liegen — 
verkniipf t werden sollen. 

Weiterbildungen der vorstehend definiert en und um- 
schriebenen Erfindung sind Gegenstand der Unteran- 



DFPs gezeigt Sie erscheinen der Umgebung wie ein 65 sprucbe. 
groBer homogener Baustein (Rg. 15). Prinzipiell sind Eine besondere Verwendung des erftndungsgemaBen 
damit zwei Kaskadierungsmethoden denkbar: DatenfluBprozessors ist darin zu sehen, daB er in Ver- 

bindung mh geeigneten Fin-/Ausgabe-Einheiten einer- 
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seits und einem Speieher andererseits die Basis ftlr einen 
korapletten (komplexen) Rechner bilden kann. Dabei 
kann ein Groflteil der IO-Funktionen als MACROs auf 
dem DatenfiuSprozessor implementiert werden und es 
brauchen momentan lediglich Spezialbausteine (Ether- 
net-Treiber, VRAMS ... ) extern zugefflgt zu werden. 
fiei einer Normanderung oder Verbesserung muB dann 
wie bereits angedeutet nur das MACRO softwareseitig 
gewechselt werden; ein Eingriff in die Hardware ist 
nicht notwendig. Es bietet sich hier an, einen IO-(Einga- 
be-/Ausgabe«) Stecker festzulegen, Uber welchen <** nn 
die Zusatzbausteine angeschlossen werden kdnnen, 

Fig. 20 zeigt den stark vereinf achten Aufbau eines 
heute ublichen Reenters. Durch den Binsatz eines DFP- 
Bausteins kdnnen erhebliche Teile eingespart werden 
(Fig. 21), wobei die entsprechenden herkdmmlichen 
Baugruppen (CPU, Speichervcrwaltung, SCSI-, Tasta- 
tur- und Videointerface, so wie der paralielen und seriel- 
len Schnittstellen) als MACROs in die kaskadierten 
DFPs abgelegt werden. Nur die durch einen DFP nicht 
nachbildbaren Teile wie Speieher and Leitungstreiber 
mit nicht TTL-Pegeln oder Cur hohe Lasten mOssen ex* 
tern zugeschaltet werden. Durch die Verwendung des 
DFPs ist eine gOnstige Produktion gegeben, da ein und 
derselbe Baustein sehr hftufig verwendet wild, das Lay- 
out der Platine ist durch die homogene Vernetzung ent- 
sprechend einfach. Zudem wird der Aufbau des Reen- 
ters durch die Ladelogik bestimmt, die hier f Or gew6hn- 
lich nur zu Beginn der Abarbeltung (nach einem Reset) 
das DFP-Array lfldt, wodurch eine gOnstige Fehlerkor- 
rektur- und Erweitenmgsm£glichkeit gegeben ist Ein 
derartiger Rechner kann insbesondere mehrere ver- 
schiedene Rechnerstrukturen simulieren, indem einfach 
der Aufbau des zu sixnulierenden Rechners in das DFP- 
Array geladen wird Zu bemerken ist, daB hierbei der 
DFP nicht in seiner Funktion als DFP arbeitet sondern 
lediglich ein hochkomplexes und frei progranunierbares 
Logikarray zur Verfugung stellt, sich hierbei jedoch von 
herkdnuniichen Bausteinen in seiner besonderen guten 
Kaskadierbarkeit unterscheidet 

Ein weiteres Einsatzgebiet des Bausteins ist der Auf- 
bau groBer neuronaler Netze, Sein besonderer Voxzug 
liegt hierbei in seiner hohen Gatterdichte, seiner ausge- 
zeichneten Kaskadierbarkeit, sowie seiner Homogeni- 
tit Ein Lemvorgang, der eine Anderung einzeber axio- 
matischer Verbindungcn beziehungsweise einzelner 
Zellfunktionen beinhaltet ist auf Oblichen Bausteinen 
ebenso schiecht durchfohrbar, wie der Aufbau groBer 
homogener und gleichzeitig flexibler Zellstrukturen. 
Die dynamische Umkonf igurierbarkeit ermoglicht erst- 
maiig die optimale Simulation von Lernvorgangen. 

Die vorliegende Erfindung wird im foigenden anhand 
der weiteren Figuron nalier erlftutert Insgesamt zeigen 
Fig. 1 ein Schaltsymbol ftlr einen 8-Bk-Addierer; 
Fig. 2 ein Schaltsymbol fur einen aus acht 1-Bit-Ad- 
dierern bestehenden8-Bit-Addierer nach Fig. 1; 

Fig. 3 eine Iogische Struktur eines 1-Bit-Addierers 
entsprechendFIg.2; 

Fig. 4 eine Zeilenstruktur des 1-Bit-Addierers ent- 
sprechendFig.3; 

Fig. 5 einen der Zeilenstruktur nach Fig* 1 entspre- 
chend aufgebauten 8-Bit-Addierer; 

Fig. 6 ein aus vier Zellen bestehendes unprogram- 
miertes SUBMACRO X (analog einem 1-Bit-Addierer 
gemaB Fig. 4 beziehungsweise Fig. 5) mit den erforder- 
Uchen LeitungsanschlQssen; 

Fig. 7 einen Teilausschnitt eines integrferten Schalt- 
krelses (Chip) mit einer Vielzahl von Zellen und einem 



separierten SUBMACRO X gemaB Fig. 6; 

Fig. 8 einen integrierten Schahkreis (Chip) mit einer 
Orthogonalstruktur einer quasi beliebigen Vielzahl von 
Zellen und einer extern zugeordneten Ladelogik; 
5 Fig. § ein erstes Ausfuitrungsbeispiel einer Mehrzahl 
miteinander zu einem Rechenwerk gekoppelter Jnte- 
grierter Schaltkreiae (DatenfluBprozessor) nach Fig. 8; 

Fig. 10 ein zweites Ausffthnuigsbelspiel einer Mehr- 
zahl miteinander 2u einem Rechenwerk gekoppelter in- 
io tegrierter Schaltkreise (Datenflufiprozessor) nach 
Ffe.8; 

Fig. 11 ein AusfOhrungBbeispiel eines MACRO zur 
Addition zweier Zahlenreiben; 
Fig. 12 einen beispielhaften Aufbau einer Zelle mit 
t5 Multiplexer* zur Auswahlder jeweiligenlogischenBau- 
steine; 

Fig. 13 eine zum Beispiel mit einem Standard-TTL- 
Baustein 74148 ausgefthrte Synchrocmationfilogik; 
Fig. 14 die Kaskadierung von vier DFPs, wobei die 
20 Verbinduiuj zwfccnen den lO-Pins nur schematisch dar* 
gestellt sind (tatsacblich bedeutet eine gezeichnete Ver- 
bindung eine Mehrzahl von Leitungen); 

Fig. 15 die durch die Kaskadierung erreichte Homo- 
genitat; 

23 Fig- 16a die Struktur der E/A-Zellen, wobei die globa- 
len Ver b i n dn ng en nicht herausgei iihrt werden, 

F|g. 16b die Struktur der E/A-ZeUen, jedoch mit her- 
ausgefOhrten globalen Verbindungen; ' 
Fig. 17a die aus Fig. 16a resultierende Kaskadierung, 
so wobei eine Eckzelle, sowie die zwei mit ihi' kommuhizie- 
renden Treiberzellen der kaskadierten Bausteine (ver- 
gleichehieizuFig. 14)gezelchnetsihd; 

Fi# 17b die aus Fig. 16b resultierende Kaskadierung, 
wobei eine Eckzelle, sowie die zwei mit ihr koramunizie- 
35 renden Treiberzellen der kaskadierten Bausteine (ver- 
gleichehierzuFig. 14)gezeichnetsind; 

F|g> 18a eine Muldplikationsschaltung (vergleiche 
Ffe.Ha); 

Fig. 18b die interne Struktur des DFPs nach dem La- 
40 den (vergleiche Fig* lib); 

Fig- 19c die Arbeitsweise des DFPs im Speieher, so- 
wie die Zustiinde der ZahJer 47, 49; 

Fig. 19 eine Kaskadenschaltung, wobei der Addierer 
aus Fig. 1 1 und der Multiplizierer aus Fig. 18 zur Steige- 
45 rung der Redienleistiinghinterebandergeschaltet sind; 
Fig. 20 den static schematisierten Aufbau eines her- 
kommlichen Rechners; 

Fig. 21 den mdglichen Aufbau desselben Rechners 
mit Hilfe eines Arrays aus kaskadierten DFPs; 
so Fig. 22 einen Ausschnitt mit eingezeichneten (Lei- 
tungs-) Treibern eines DFPs. 

In Fig. 1 ist ein Schaltsymbol eines 8-Bit-Addierers 
dargestellt Das Schaltsymbol besteht aus einem qua- 
dratischen Baustein 1 mit acht Eing&ngen A 6 ... 7 far 
ss ein erstes Datenwort A und acht EingSngen B 0 . . . 7 fQr 
ein zweites (zu addierendes) Datenwort B. Die jeweils 
acht Einginge Ai, Bi werden erganzt durch einen weite- 
ren Eingang Oein Qber den dem Baustein 1 gegebenen- 
falls ein Obenrag zugeleitet wind. Der Baustein 1 hat 
eo funktions- und bestimmungsgemaB acht Ausg&nge S 0 
... 7 fur biniren Summanden und einen weiteren Aus- 
gang Oaus fur den gegebenenfalls bestehenden Ober- 
trag. 

Das in Fig. 1 dargestellte Schaltsymbol ist in Fig. 2 als 
65 Anordnung sogenannter SUB MACROS dargestellt 
Diese SUBMACROS 2 bestehen je aus einem 1-Bit-Ad- 
dierer 3 mit je einem Eingang fur die entsprechenden 
Bits des Datenworts und einem weiteren Eingang fur em 
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Obertragsbit Die 1-Bit-Addierer 3 weisen darilberhin- Fig. 4) bestehende Untereinheit zu betrachten ist 

aus einen Ausgang fflr den Summanden und einen Aus- Das in Rg. 5 separierte SUBMACRO "^st in Fig. 6 

^Xden&ertragOausauf. als Teil eines integrierten Scfaaltkreises (Chip) 20 ge- 

In F1&3 ist die binire Logik eines 1-Bit-Addierers meinsam mit Leitungs- und Datenanschltissen darge- 
beziehwrtttweise eines SUBMACROS 2 nach Fig. 2 dar- 5 steUt Das SUBMACRO "JT besteht aus den vier ZeUen 
Restellt Analog zu Fig: 2 weist diese Schaltlogik je ei- 10 die entsprechend der orthogonalen Stniktyr je Sejte 
nen Eingang Ai, Bi ffir die konjugierten Bits der zu vier DatenanschlUsse (also insgesamt sechzehn I)aten- 
verkntofenden Daten auf; ferner ist ein Eingang Oein anschltisse je Zelle) aufweisen. Die DatenanscWilsse 
filr den Ubertrag vorgesehen. Diese Bits werden den verbindenjew^benachbarteZeneasodaBerachth^ 
dargesteUten Verbindungcn beziehungsweise VerknQp- to wird, wie beispielsweise eine Dateneinheit von Zdte zu 
fungen entsprechend in zwei ODER-Gfiedern 5 und drei Zelle durcbgeschleust wird Die Ansteuerung der ZeUen 
NJ&D-Gliedern 6 verknOpft, so daB am Ausgangsan- 10 erfolgt einerscits Ober sogenannte lokale Steuenm- 
schluB Si und am Ausgang fiir<den Obertrag Dans die gen, das sind lokale Leitungen, die nut alkn Zellen ver- 
einem Volladdierer entsprechfenden Verknttpfungser- bunden sind, und andererseits flber sogimaimte gipbale 
gebnisse (Si, Oaus) anstehen. is Leitungen, d. h. Leitungen, die Ober den gesamten inte- 

Die Erfindung setzt da ein, wo es - wie in Fig. 4 griertenSchaltkras(Chip)M^ 
dargesteUt - darum geht, das in Fig- 3 gezeigte SUB- In F|g. 7 ist ein vergrfiBerter Ausschnitt eines mte- 
MACRO 2 oder eine oder mebrere beliebige Funk- grierten Schaltkreises 20 dargesteUt, der mit einem or- 
tion(en) in geeigneter Weise in einer Zellstruktur zu thogonalen Raster yon ZeUen 10 belegt ist Wie in Kg. 7 
implementierea Dies geschieht auf der Gmndlage to- 20 angedeutet kann so zum Beispiel eine Gruppe von vier 
gisdi und struktureli identischer Zellen 10, deren einzel- ZeUen 10 als SUBMACRO "X" ausgewahlt und dem 
ne iogische Bausteine der auszufQhrenden VerknQp- 1-Bit-Addierer entsprechend Fig. 4 gemftfl program- 
fungsfunktion entsprechend miteinander gekoppeh miert beziehungsweise konfiguriertweiden. 
werden, und zwar mittels der noch zu bescbreibenden Ein vollstandiger integrierter Schaltkreis (Chip) 20 1st 
Ladelogik. GemaB der in Fig. 4 gezeigtea von der 25 in Fig. 8 dargesteUt Dieser iniegrierte Schaltkreis 20 
Schaltlogik nach Fig. 3 abgeleiteten Verknflpfungslogik besteht aus einer Viekahl im orthogonalen Raster ange- 
fOr einen 1-Bit-Addierer sind je zwei Zellen 10.1, 10l2 ordneter Zenen 10 und weist an seinen AuBenkanteh 
bezuglich der logischen Bausteine insoweit gleich. daB eine entsprechende Anzahl von LeitungsanschlOssen 
jeweils ein ODER-Glied 5 und ein NAND-Glied 6 akii- (Pins) auf, Ober die Signale, insbesoridere Ansteuersi- 
viert sind. Eine dritte Zelle 103 wird nur als Leitungszel- 30 gnale und Daten zugefuhrt und weiteigeleitet werfen 
le (Leiterbahnzelle) benutzt und die vierte Zelle 104 ist kflnnen. In Fig. 8 ist wiederum das SUBMACRO "X" 
bezuglich des dritten NAND-Gliedes 6 aktiv geschaltet gemaB Elg.5/Kg.€ abgegrenzt; darflberfunaus sind 
Das aus den vier ZeUen 1<U . . . 104 bestehende SUB- auch wcitere SUBMACROS separiert, die ^ezifisphen 
MACRO 2 steht sorait steUvertretend fur einen 1-Bit- Funkuonen und Vernetzungen entsprechend zu Unte- 
Addierer, dh. ein 1-Bit-Addierer einer Datenverarbei- 35 reinheiten zusammengefafit sind. Dem integrierten 
tungsemrichtung gemaB der vorliegenden Erfindung Schaltkreis (Chip) 20 ist eine Ladelogflc 30 zugeordnet 
wird Ober vier entsprechend programmierte (konfigu- beziehungsweise Obergeordnet, fiber die der integnerte 
rierte) ZeUen 10.1 ... 104 verifiziert (Der VoUstSndig- Schaltkreis 20 programmiert und kpnfigurfert wird Die 
keit halber soli angemerkt werden, daB die elnzelnen Ladelogik 30 teih iemlich dem integrierten Schaltkreis 
ZeUen ein erhebtich umfangreicheres Netzwerk von lo- 40 20 mit, wie er arithmetisch-logisch zu arbeiten hat Be- 
gischen Bausteinen, sprich VerknOpfungsgUedern, und zugnehmend auf die Fig. 1 bis $ tit in Fig. 8 binerselts 
Invertern aufweist die jewefls dem aktueUen Befehl der das SUBMACRO "X" enteprechend Fig. 4 und Fig^5 
Ladelogik zufolge aktiv geschaltet werden kdnnen. Ne- hervorgehobeii; andererseits ist auch ein MACRO "Y" 
ben den logischen Bausteinen ist auch ein dicfates Netz entsprechend Fig. 1 und Fig. 2 angewjchnet,das als Ein- 
von Verbindungsleitungen zwischen den jeweils be- 45 heit einem 8-Bit-Addierer entspricht .; _ 
nachbarten Bausteinen und zum Aufbau von zetten- und Anhand von Fig. 9 beziehungsweise Fig. 10 soil un 
spaltenweisen Busstrukturen zur Datentibertragung an- folgenden eine Rechnerstruktur beschrieben werden, 
dererseits vorgesehen. so daB Ober eine entsprechende die auf den im vorstehenden def inierteri und erliuterten 
Programmierung seitens der Ladelogik quasi beHcbige integrierten Schaltkreis 20 auf baut 
Iogische Verknflpfungsstrukturen implemcmiert wer- 50 GcmfiB dem in Fig. 9 dargesteUten ersten AJisfQh- 
den kfiimen). rungsbeispiel ist - analog zur Anordnung der Zellen - 

Der Vollstandigkeit halber ist in FSg. 5 der ZeUenauf- im Ortbogonalraster eine Mehrzahl von integrierten 
ban eines 8-Bit-Addierers in seiner Gesamtheit darge- Schaltkreisen 20 angeordnet, deren jeweils benachbarte 
stellt Die in Fig. 5 gezeigte Struktur entspricht insoweh Qber lokale BUS-Leitungen 21 miteinander gekoppelt 
der nach Fig. 2 ( wobei die in Fig. 2 symbolisch als SUB- 53 beziehungsweise vernetzt sind. Die - bewpielsweise 
MACROS 2 dargesteUten 1-Bit-Addierer jeweils durch aus sechzehn integrierten Schaltkreisen 20 bestehende 
eine vier-zellige Einheit 10.1 . . . ia4 ersetzt sind. Bezo- - Rechnerstruktur wrist Em-/Ausgangsletaingen IQ 
een auf den erfindungsgemABen Datenfluflprozessor auf, Ober die der Rechner quasi nut der AuBenwelt in 
bedeutet dies, daB zweiunddreiBig ZeUen der zur Verfa- Verbindung steht, d. h. korrespondiert Der Rechner ge- 
gung stehenden Gesamtheit von Zellen einer zellular so maB Fig. 9 weist ferner einen Speicher 22 auf. der dem 
mit logisch identischem Layout gefertigten Schaltungs- dargesteUten AusfQhrungsbeispiel entsprechend aus 
olatine seitens der Ladelogik so aiigesteuert und konfi- zwei separierten Speichern, zusammengesetzt aus je- 
guriert beziehungsweise programmiert werden, daB weils RAM, ROM sowie einem Dual-Ported RAM ds 
diese zweiunddr^ig ZeUen ein 8-Bit-Addierer bUdea shared memory zu der Ladelogik geschaltet. besteht, die 

In der DarsteUung nach Fig. 5 ist Ober eine strich- 65 gleichermaBen als Schreib-L^Speicheroder auch nur 
ounktierte Umrahmung ein SUBMACRO "X" zeichne- als Lose-Speicher reaUsiert son kdnnen. Der sow«t be- 
risch separiert, das ietztlich als aus vier einem 1 -Bit- Ad- schriebenen Rechnerstruktur ist die Ladelogik 30 ru^ 
dierer entsprechend programmierten ZeUen (10 gem&B beziehungsweise Obergeordnet, mittels der die tote- 
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grierten Schaltkreise (Datenflufiprozessor) 20 program- die abzuspeicheraden Additionsergebnisse crg&nzt Die 

micrt und konfiguriert und vernetzt werden. Adrefischaltung 46 besteht ihrerseits aus drei MACROS ' 

Die Ladelogik 30 baut auf einem Transputer 31, d h. 1 (gemfifi Fig. 1) zur BOdung der Adrefldaten, wobei 
einem Prozessor mit raikrocodiertem Befehlssatz auf, dieseMACROsl wiefolgtgesdialtetsindi.Oberjeweils 

dem seinerseits ein Speicher 32 zugeordnet ist Die Ver- 5 einen Eingang werden die zu verknttpfenden Adressen 

bindung zwischen dem Transputer 31 und dem Daten- fur An, Bn, Cn zugefllhrt Diese Adressen werden mit 

fluflprozessor basiert auf einer SchniUsteUe 33 fur die den Ausgangssignalen eines Zihlers 47 addlert und mit 

sogenannten Ladedaten, d h. die Daten die den Daten- der Statemachine 45 so verknupft, daB am Ausgang die 

fluBprozessor aufgabenspezifisch programmieren und neue Zeladresse ansteht Der Zahier 47 und der Kom- 

konfigurieren und einer Schnittsteue 34 fOr den bereits 10 parator 48 baben dabei die Aufgabe sicherzustellen, daB 

genannten Rechnerspeicher 22, dh. den Shared-Memo- jeweils die richngea Summanden verknupft werden und 

ry-Speicher. dafi jeweils am Bnde der Zahknreihen, d h. bei n » 9 

Die in Fig. 9 dargestellte Struktur stellt so einen kom- abgebrochen wird 1st die Addition vollendet, so wird in ^ 

pletten Rechner dar, der Ober die Ladelogik 30 jeweils der Zeitsteuerung 45 ein CTOP-SJgnal generiert und die * 

fall- beziehungsweise aufgabenspezifisch programmiert 15 Schaltung passu/ geschahet Ebenso kann das STOP-Si- 

und konfiguriert werden kann. Der Vollst&ndigkeit hal- gnal als Eingangssignal f Or eine Synclu-onisatlons-Schal- 

ber sei noch angemerkt, dafi — wie in Verbindung mit tung verwendel werden, indem die Synchronisationslo- 

der Ladelogik 30 Qber Pfeile angedeutet — mebrere gik anhand dieses Signals erkennen kann, daB die Ge-« 

dieser Rechner vernetzt, d h. miteinander gekoppelt samtfunktion "Addieren" gemafi dem nachfotgend be- 

werden kttnnen. 20 schriebenen ML1 Programm beendet ist und die MA* 

Ein weiteres Ausfuhrungsbeispiei einer Rechner- CROs eorait durch neue ersetzt werden k&nnen (zum 

struktur ist in Fig. 10 dargestellt Im Unterschied zu Beispiel konnte STOP das Signal SyncSsein). 

Fig. 9 sind dabei neben den lokalen BUS-Lef tungen zwi- Der Zeitablauf in der Zeitsteuerung 45 (STATEMA- 

schen den benachbarten integrierten Schaltkreisen 2D CHINE) lifit rich dabei wie folgt darstellen, wobei noch 

noch ubergeordnete zentrale BUS-Leitungen 23 vorge- 25 aimimerkenicvdaB toderZeiteteuerw 

sehen, um zum Beispiel spezinache Ein- beziehungswei- gerungszeit T (Id Form von Taktzykien) zwischen der 

se Ausgangsprobleme Idsen zu kdnnen. Auch der Spei- AdreBgenerierung und dem Datenerhait implementiert 

cher 22 (Shared-Memory) ist fiber zentrale BUS-Leitun- 1st: 
gen 23 mit den mtegrierten Schaltkreisen 20 verbunden, 

und zwar wie dargestellt jeweils mit Gruppen dieser 30 
integrierten Schahkreise. Die in Fig. 10 dargestellte 
Rechnerstruktur weist die gieiche Ladelogik 30 auf, wie 
sie anhand von Fig. 9 eriftutert wurde. 

In Verbindung mit Fig. 1 la soli eine auf erfutdungsge- 
ra&fien DatenfluBprozessoren aufgebaute Additions- 35 
schaltung erlautert werden. Ausgegangen wird von zwei 
Zahlenreihen An und Bn f Or santtliche n zwischen 0 und 
9; die Aufgabe besteht darin, die Summe Q Ai + Si 
zu bilden, wobei der Index i die Werte 0 on < 9 anneh- Mit anderen Worteu heifit dies, daB die Operations- 
men kann. 40 schleife und die eigenttiche Addition gerade (T + 2) 

Bezugnehmend auf die Darstellung nach Fig. 1 la ist Taktzykien erfordert Im aligememen sind fttr T 2 . . . 3 

die Zahlenreihe An in einem ersten Speicher RAMI Takte erf orderlich, so daB vergtichenmitdenherkomm- 

abgespeichert und zwar zum Beispiel ab einer Speicher- lichen Prozessor en (CPLfy die im aOgemeinen 50 bis 

adresse lOOOh; die Zahlenreihe Bn ist in einem Speicher mehrere 100 Taktzykien bedingen, erne ganz wesentli- 

RAM2 an einer Speicheradresse OdfaOh abgespeichert; 45 che Rechenzeit-ReduzievungmQgtich wird 

die Summe Cn wird in den RAMI eingeschrieben und Die anhand von Fig. 11 aufgezeigte {Configuration 

zwar unter der Adresse lOOah. soil im folgenden Ober eine hypothetische MACRO- 

Es ist ein weiterer Zahler 49 zugeschaltet, der ledig- Sprache ML1 nochmals erlautert werden: 

lich die einzelnen durch die Steuerschaltung freigegebe- Es existieren die Zahlenreihen An und Bn 

nen Taktzykien hochz&hlt Dies soil im Weiteren zur so 

Verdeutlichung der Umkonfigurierbarkeit einzelner Vo:D«d«9 
MACROs ohne Beeinflussung der an der Umkonfigurie- 

rungnicht beteiligten MACROs dienen. Es solkn die Suramen G « Ai + Bi mh I e N gebildet 

Fig; 11a zeigt zunftchst die eigenttiche Additions- werden. 

schaltung 40, die aus einem ersten Register 41 zur Auf- 55 const n — 9; 

nahme der Zahlenreihe An und einem zwehen Register array A [n] in RAM [1] at lOOOh; 

42 zur Aufnahme der Zahlenreihe Bn besteht Den bei- array B fn] in RAM [21 at OdfaOh; 

den Registem 41/42 ist ein 8*Bit-Addierer entsprechend arrayC[n]inRAM[ljatl00ah; 

dem in Fig. 1 dargestellten MACRO 1 nachgeschaltet fori «* Oton with(AH,B[i] f C|TD 

Der Ausgang des MACRO 1 fOhrt Ober eine Treiber- eo Al; 

schaltung 43 zurflck zum Speicher RAMI. Die Takt- C - Al « A + B; 

beziehungsweise Zeitsteuerung der Additionsschaltung next; 

40 erfolgt liber eine von einem Taktgenerator T ange- RAMI ist der 1. Speicherblock 

steuerte Zeitsteuerung (STATEMACHIN E) 45, die mit RAM2 ist der 2. Speicherblock 

den Registern 41, 42 und der Treiberschaltung 43 ver- as at folgt die Basisadrease der Arrays 

bunden ist for ist der Schleifenbeginn 

Die Additionsschaltung 40 wird funktionai durch eine next ist das Schleifenende 

Adrefischaltung 46 zur Generiernng der AdreBdaten fur with ( ) folgen die Variablen, deren Adressen durch die 



- Im Zyklus 1 wird jeweils der Zdhler 47 um 1 
erhdht und im ^Comparator 48 wird gepruf t, ob n > 
9 errefcht ist; synchron zu diesen Operatbnen wer- 
den die Adressen fur A, B, C berechnet; 

- imZyklusfT + 1) werden die Summanden A, B 
ausgelesen und addiert; 

- im Zyklus (T -f 2) wird die Summe C abgespei- 
chert 
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Zahlvariable i bestimmt werden ablaufe von 19 auf 29 hochlauft (Hierrait soli das dyna- 

A T folgt die Verzagerungszeit f fir eine Statemachine in mische unabhangige Umladen demonstriert werden, in 
Taktzyklea jedem bisher bekannten Baustein wttrde der Zahler er- 

Das Tuning der Statemachine sieht demnach folgen- neut von 0 auf 9 lauf en, da er zurfickgesetzt wird). 
dennaBen aus: 5 Bei naherer Betrachtung des Problems stellt sich die 

Frage, warum nicht beide Operationen, die Addition 
Zyklus Aktivitat und die Multiplication in einem Zyklus durchgefOhrt 

werden, also die Operation: 

1 Zahler erhfthen, Vergleich auf > 9(ja => & existieren die Zahtenreihen An und Bn, wobei An 

Abbruch) und Adressen fttr A, B, C, 10 dureh das Ergebnis von Cn des vorber ausgefQhrten 

berechnen Programing gegeben ist: 



T 4- 1 A, B, holen und addieren 
T + 2 Nach C speichern 



Vn:0«D«9 



15 Es sollen die Produkte Ci«(Ai+Bi) » fii mit I € N ge- 
Das heiBt — wie bereits erwfthnt — die Schleife und die bildet werden. 
Addition benotigen gerade einmal T + 2 Taktzyklea path Dj 

Fig. lib zeigt den groben Aufbau der einzelnen const n- 9; 
Funktionen (MACROs) in einem DFP. Die MACROs array A[n]inRAM[l]atl000h 
sind in ihrer etwaigen Lage und Grdfte eingezeichnet 20 array B[n!inRAM[2] at OdfaOh 
und mit den anhand von Fig. 11a erlauterten entspre- array C[n]inRAM[l]at lOOah 
chenden Nummern versehen. for i - 0 to n with (A[f| ► Bp] , CpJ 

Fig. 1 lc zeigt den groben Aufbau der einzelnen Funk- Al ; 
txonen auf die RAM-BlOcke 1 und 2: Die Summanden D=»A1 <-AbB; 
werden nacheinander in aufsteigender Reihenfolge aus 25 C=A1=D»B; 
den RAM-Bldcken 1 und 2 ab Adresse 1000b bezie- next; 

hungsweise OdfaOh gelesen und in RAM-Block 1 ab path D defimert einen internen nicht aus den DFP 
Adresse lOOah gespeichert Zudem sind die Zihler 47 herausgefQhrten Doppelpfad Die Operation benStigt 
und 49 gegeben, beide zahlen wahrend des Ablaufs der wegen einem zusatzlichen Al einen Taktzyklus mehr ais 
Schaltungvon0bis9. 30 vorher, ist insgesamt jedoch schneller als die beiden 

Nach Beendigung des beschriebenen Programms soil obigen Programme in Folge ausgefuhrt, da zum einen 
ein neues Programm geladen werden, das die Ergebnis- die Schleife nur einmal durchlaufen wird, zum zweiten 
se weiterverwertet Die Umladung soil zur Laufzeit er* nicht umgeladen wird. 

folgen. Das Programm ist im Folgenden gegeben: Prfnzipiell kOnnte das Programm auch so formuliert 

Es existieren die Zahlenreihen An und Bn, wobei An 35 werden: 
durch das Ergebnis Cn des vorber ausgefQhrten Pro- const n«9; 
gramms gegeben ist: array A[n] in RAM[1] at lOOOh 

array B[nj in RAM[2] at OdfaOh 
Vn:0<*n«9 array C[nJ in RAMpjat lOOah 

40 fori-OtonwiihCAplBpiqiD 
Es sollen die Produkte Ci-Ai * Bi mit I € N gebildet A— 1: 
werden- C«A2«(A+B)*B; 
const n=9 next; 

array Afn] in RAM[1] at lOOah Sind die GaUerlaufzeiten des Addierers und des Mui- 

array BTn] in RAM[2] at OdfaOh 45 dpiizierers zusammen kleiner als ein Taktzyklus, kann 

arrayCJnlinRAK^liatlOlSh die Operation (A+B) • B auch in einem Taktzykhis 

fon-0tonwith(Ap],Bfl ( c[i]) durchgefOhrt werden. was zu einer weiteren erhebii- 

&l . chen Geschwindigkeitssteigerung fQhrt: 

C» A1=A»B; const n«=9; 

next; 50 array A[n]in RAM[1] at lOOOh 

Die Beschreibung der einzelnen Befehle ist bereits be- array B[n] in RAM[2] at OdfaOh 
kannt, * array C[n] in RAM[1] at lOOah 

• symbolisiert die Multiplication, for i -0 to n with (AR B[iJ Cp]) 

Al; 

Die MACRO-Struktur ist in Fig. 18a beschrieben, 55 C~Ai«(A + B)- B; 
Fig. 18b gibt in bekannter Weise die Lage und GrdBe next; 

der einzelnen MACROs auf dem Chip an, besonders zu Anhand von Fig. 12 soli em einfaches Becpiel eines 
beachtenistdieGroBedesMultiplizierers2inVergleich Zellenaufbaus erlautert werden. Die Zelle 10 umfaflt 
zu Addierer 1 aus Fig. lib. In Fig. 18c ist erneut die zumBeispieleinUND-Giied51,emODER-Glied32.ein 
Auswirkung der Funktion auf den Speicher aufgezeigt, go XOR-Glied 53, einen Inverter 54 sowie eine Register- 
Zfihler 47 zahit erneut von 0 bis 9, d h, er wird beim zelle 55. Die Zelle 10 weist darQberhinaus eingangsseitig 
Nachladen der MACROs zurOckgesetzL zwei Multiplexer 56, 57 mit (den sechzehn Eingangen 

Besonders zu beachten ist der Zahler 49. Angenom- der Zelle entsprechend Fig. 6) zum Beispielje sechzehn 
men, das Umladen der MACROs betrftgt 10 Taktzyklea EingangsanschlOssen INI. IN2 auf. Uber diesen 
Dann lauft der Zahler 49 von 9 auf 19, da der Baustein es (16 : ^Multiplexer 56/57 werden jeweils die den ge- 
dynamisch umgeladen wird, d h. nur die umzuladenden nannten logischen Gliedern UND, ODER, XOR 51 . . . 
TeUe werden gestoppt, der Rest arbcitet weiter. Das S3 zuzufQhrenden Daten ausgewahlt Dicse logischen 
ftthrt nun daB der Zahler wahrend des Programm- Glieder sind ausgangssehig mit einem (3 : l>Muluple- 
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xer 58 gekoppelt, der seinersehs tnit dem Eingang des 
Inverters 54, einem Eingang der Regis terzelle 55 und 
einem weiteren (3 : 16)-Muhiplexer 5d gekoppelt ist. 
Der letztgenannte Multiplexer 59 ist zusitzlich mh dem 
Ausgang des Inverters 54 und einem Ausgang der Regi- 5 
sterzelle 55 verbunden und gibt das Ausgangssignal 
OUTab. 

Der VoUstandigkeit halber sei angexnerkt, daB die Re- 
gisterzelle 55 mit einem Reset-Eingang R und einem 
Takteingang gekoppelt ist to 

Dem im vorstehenden erlauterten Zellenaufbau, d. h. 
der Zelle 10 ist nun eine Ladelogik 30 (ibergeordnet, die 
mit den Multiplexern 56,57,58 und 59 verbunden ist und 
diese den gewllnschten Funktionen emsprechend an- 
steuert ' 15 

Sollen zum fieispiel die Signale A2 mit B5 verundet 
werden, so werden die Multiplexer 56, 57 den Leitungen 
"ZWEF beziehungsweise "FONF" entsprecfaend aktiv 
geschaltet; die Siimmanden gelangen dann zum UND- 
Glied 51 und werden bei entsprechcnder Aktrvierung 20 
der Multiplexer 58, 59 am Ausgang OUT abgegeben. 
Soli zum Beispiel eine NAND-VerknQpfung durchge- 
ftihrt werden, so schaltet der Multiplexer 58 zum Inver- 
ter 54 und am Ausgang OUT stent dann das negierte 
UND-Ergebnisan. 25 

Patentansprflche 

1. Datenverarbdtungseinrichtung, wobei ein (im 
foigenden DatenfluBprozessor — DFP — genann- 30 
ter) integrierter Schaltungskreis (Chip) mit einer 
VieJzahl insbesondere orthogonal zueinander an- 
geordneter homogen strukturierter Zellen mit je 
einer Mehrzahl jeweils logisch gleicher und struk- 
turell identisch angeordneter Bausteine vorgese- 35 
hen ist, dessen ZeUen zeilen- und spaltenweise, ge- 
gebenenfalls gruppenweise zusammengefaBt, mit 
Ein-/AusgangsanscJilQssen des integrierten Schalt- 
kreises verbunden sind, dadurch gekennzeichnet, 
da0 den Zellen eine Ladelogik zugeordnet ist, Qber 40 
die sie je fur sich und gegebenenfalls gruppenweise 
zusammengefaBt so programmierbar (konfigurier- 
bar) sind, daB beliebige logische Funktionen undV 
oder Vernetzungen untereinander verifizierbar 
sind, und zwar derart, daB eine Manipulation der 45 
DFP-Konfiguradon wahrend des Betrtebes (oder 
zur Laufzeit), d h. die Modifikation funktioneller 
Teile (MACROS) des DFPs erfolgen kann, ohne 
daB andere funktionelle Teile angehalten werden 
mUssen oder in ihrer Punktion beeintr&chtigt wer- so 
den. 

% Datenverarbeitungseinrichtung nach Anspruch 1, 
dadurch gekennzeichnet, daB die Ladelogik mit 
Speichermitteln gekoppelt ist, fiber die die Konfi* 
guration der Zellen spezifizierbar 1st 55 

3. Datenverarbeitungseinrichtung nach einem der 
Ansprflche 1 bis 2, dadurch gekennzeichnet, daB die 
Ladelogik aus einem Prozessor besteht, der den 
gesamten Programmablauf auf der Grundlage von 

in verschiedenen Speichern abgelegten Daten und 60 
Programmen im Sinne einer Harvard-Struktur ver- 
waltet. 

4. Datenverarbeitungseinrichtung nach Anspruch 3, 
dadurch gekennzeichnet, daB die Ladelogik ihrer- 
selts aus Zellen mit je einer Mehrzahl jeweils lo- c& 
gisch gleicher und strukturell identisch angeordne- 
ter Bausteine aufgebaut ist 

5. Datenverarbeitungseinrichtung nadi einem der 
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AnsprOche 1 oder 4, dadurch gekennzeichnet, daB 
die Zellen dynamisch wahrend eines Programmab- 
laufs umkonftgurierbar sind, ohne dafi die zu bear- 
behenden Daten selbst beeinfluBt werden. 

6. Datenverarbeitungseinrichtung, wobei ein (im 
foigenden DatenfluBprozessor — DFP — genann- 
ter) integrierter Schaltungskreis (Chip) mit einer 
Vielzahl insbesondere orthogonal zueinander an- 
geordneter homogen strukturierter ZeUen mit je 
einer Mehrzahl jeweils logisch gleicher und struk- 
turell identisch angeordneter Bausteine vorgese- 
hen ist, dessen Zellen zeilen- und spaltenweise, ge- 
gebenenfalls gruppenweise zusammengefaBt, mit 
EuWAusgangsanschlussen des integrierten Schalt- 
kreises verbunden sind, dadurch gekennzeichnet, 
daB eine Mehrzahl von ihnen in Kaskadenform 
koppelbar sind 

7. Datenverarbeiumgseinrichtung nach einem der 
AnsprOche 1 bis 6, gekennzeichnet durch, die Zu- 
ordnung geeigneter Daten-£b-/Ausgabe-Einhei- 
ten und mindestens eines Speichers zum Aufbau 
eines (komptoten, kompletten) Rechenwerks. 

8. Datenverarbeilutigseinrichtung nach einem der 
AnsprOche 1 bis 7, dadurch gekennzeichnet, dafi die 
Funktionen der Ein-/Ausgabeeinheiten partiell im 
integrierten Schahkreis (Chip) implementierbar 
sind 
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